home *** CD-ROM | disk | FTP | other *** search
/ SGI MineSet 2.5 / SGI MineSet 2.5.iso / docs6.4 / relnotes / MineSet / ch4.z / ch4
Encoding:
Text File  |  1998-05-12  |  21.6 KB  |  595 lines

  1.  
  2.  
  3.  
  4.                                   - 1 -
  5.  
  6.  
  7.  
  8.        4.  _C_h_a_n_g_e_s__a_n_d__A_d_d_i_t_i_o_n_s
  9.  
  10.        4.1  _C_h_a_n_g_e_s__a_n_d__A_d_d_i_t_i_o_n_s__i_n__M_i_n_e_S_e_t__2_._5
  11.  
  12.        4.1.1  _G_e_n_e_r_a_l__C_h_a_n_g_e_s  MineSet 2.5 introduces several new
  13.        features that are described in this chapter, including
  14.        parallelization, clustering, regression, and decision
  15.        tables.
  16.  
  17.        In addition, MineSet 2.5 includes:
  18.  
  19.           +o Boosting classifiers:  A general algorithm that can be
  20.             applied to inducers which often increases their
  21.             accuracy.
  22.  
  23.           +o Display training set as disks:  When backfitting is
  24.             enabled as a decision tree, option tree, or regression
  25.             tree is built, it is now possible to see the
  26.             relationship between the distribution of the training
  27.             set at each of the nodes in the tree and the complete
  28.             data set (training set + test set).  The bars in the
  29.             treeviz display will still represent the total backfit
  30.             distribution, but with 'display training set as disks'
  31.             enabled, the relative distribution of the training set
  32.             will also be displayed, as treeviz disks over the bars.
  33.             This allows you to visually verify, if you wish, the
  34.             validity of the random selection of the training set
  35.             out of the complete set.
  36.  
  37.           +o Evidence Visualizer features:  The ability to have
  38.             multiple selections, choices between conditional
  39.             probability cakes or probability pies, loss matrices,
  40.             Laplace correction toggle a toggle to display nulls,
  41.             and an alternative landscape viewer among other new
  42.             features.
  43.  
  44.           +o Tool Manager:  Aside from changes to support the new
  45.             analytical tools, the only significant new features for
  46.             Tool Manager in release 2.5 are found on the "Edit
  47.             History" panel. "Edit History" used to bring up a
  48.             separate dialog in which the data transformations were
  49.             shown as a graph.  In version 2.5, the button has been
  50.             changed to "View History." When you click this button,
  51.             the transformation graph appears in the same window
  52.             instead of a dialog box, and the menu options are still
  53.             available at the top of the window.  Click the "View
  54.             Op-At-A-Time" button to return to the standard, one
  55.             operation at a time view.  The usability of the "View
  56.             History" mode has been improved, and a new "View Data"
  57.             button has been added to allow you to see the data (or
  58.             a sample of the data) at any point in the history.
  59.  
  60.  
  61.  
  62.  
  63.  
  64.  
  65.  
  66.  
  67.  
  68.  
  69.  
  70.                                   - 2 -
  71.  
  72.  
  73.  
  74.           +o Web Extensions:  All the new tools can now be launched
  75.             from the web.  MineSet Web Extensions now fully
  76.             supports the creation and visualization of the new and
  77.             existing MineSet visualizer files.
  78.  
  79.           +o Parallelization:  Discretization and tree induction
  80.             algorithms (decision, option, regression trees) have
  81.             been parallelized.  Discretization is parallelized with
  82.             respect to the number of attributes to discretize.
  83.             Tree induction algorithms have been parallelized
  84.             topologically: computations in different branches of
  85.             the tree run in parallel.
  86.  
  87.             The _M_i_n_e_S_e_t _U_s_e_r'_s _G_u_i_d_e refers to the generic mining
  88.             application engine "MIndUtil," although in reality
  89.             there exist two separate applications:  the parallel
  90.             MIndUtil_p and the single-threaded MIndUtil_s.
  91.             Pragmatically speaking, the parallel MIndUtil_p should
  92.             only execute on multiprocessor systems and an IRIX
  93.             release which supports multi-threaded applications:
  94.             IRIX 6.2 (with patches), 6.4 (with patches), or 6.5.
  95.             Otherwise, the single-threaded MIndUtil_s is the most
  96.             efficient choice.
  97.  
  98.             Since the O2 is a uniprocessor machine, parallelization
  99.             is not available in the IRIX 6.3 version of MineSet.
  100.  
  101.        4.1.2  _C_h_a_n_g_e_s__a_n_d__A_d_d_i_t_i_o_n_s__t_o__t_h_e__S_t_a_t_i_s_t_i_c_s__V_i_s_u_a_l_i_z_e_r
  102.  
  103.           +o The Statistics Visualizer is now a separate
  104.             application, as contrasted to MineSet 2.0/2.0.1 where
  105.             it existed as a semiautonomous subwindow of the Tool
  106.             Manager.
  107.  
  108.        4.2  _C_h_a_n_g_e_s__a_n_d__A_d_d_i_t_i_o_n_s__i_n__M_i_n_e_S_e_t__2_._0_._1
  109.  
  110.        4.2.1  _G_e_n_e_r_a_l__C_h_a_n_g_e_s
  111.  
  112.           +o The Associations Rule Generator now accepts input from
  113.             flat files as well as databases.  The Tool Manager
  114.             interface for Associations has been changed to support
  115.             this and to simplify the process of working with
  116.             Associations.  Use of "assoccvt" for the creation of
  117.             "assoc" binary files now occurs automatically and
  118.             invisibly, thus the buttons for creation and selection
  119.             of these binary files have been removed.  N.B.  If you
  120.             wish to run the Rule Visualizer without running
  121.             Associations, you can do so using the Tool Manager's
  122.             "Visual Tools" menu.
  123.  
  124.  
  125.  
  126.  
  127.  
  128.  
  129.  
  130.  
  131.  
  132.  
  133.  
  134.  
  135.  
  136.                                   - 3 -
  137.  
  138.  
  139.  
  140.           +o Client speed for reading MineSet binary files is
  141.             considerably faster than in version 2.0.
  142.  
  143.           +o MineSet 2.0.1 complies with the X/Open guidelines for
  144.             dates past the year 2000.  Previous versions of MineSet
  145.             had already used 4 digit year fields for ascii output,
  146.             and an internal date/time format which handles dates
  147.             well beyond 2000.  The only change from previous
  148.             versions is that when MineSet reads from externally
  149.             prepared ascii files in which dates have 2 digit year
  150.             format, year fields are interpreted with 00-68 being
  151.             2000-2068 and 69-99 being 1969-1999.
  152.  
  153.        4.3  _C_h_a_n_g_e_s__a_n_d__A_d_d_i_t_i_o_n_s__i_n__M_i_n_e_S_e_t__2_._0
  154.  
  155.        4.3.1  _G_e_n_e_r_a_l__C_h_a_n_g_e_s
  156.  
  157.           +o All the visual tools except for the Rule Visualizer and
  158.             Evidence Visualizer support multiple selection,
  159.             allowing selection of multiple objects in the scene.
  160.             The data associated with all selected objects may be
  161.             viewed by choosing _S_e_l_e_c_t_i_o_n_s/_S_h_o_w _V_a_l_u_e_s from the
  162.             tool's menu.  For most visual tools, multiple selection
  163.             is accomplished using Shift-Left mouse click.  (In the
  164.             Splat Visualizer it is accomplished by drawing a box
  165.             around the selections.)
  166.  
  167.           +o All the visual tools except for the Rule Visualizer
  168.             support "Drill Through".  This allows you to select one
  169.             or more objects, and send a request to the Tool Manager
  170.             to fetch the original data.  There are two options.
  171.             _S_e_l_e_c_t_i_o_n_s/_S_h_o_w _O_r_i_g_i_n_a_l _D_a_t_a tells Tool Manager to
  172.             bring up a table of the original data that resulted in
  173.             the selections, while _S_e_l_e_c_t_i_o_n_s/_S_e_n_d _t_o _T_o_o_l _M_a_n_a_g_e_r
  174.             tells the Tool Manager to insert a filter operation,
  175.             allowing the user to launch other visualizations or
  176.             mining tools on the selected data.
  177.  
  178.           +o A new tool, the Splat Visualizer (splatviz), aggregates
  179.             large amounts of data, and displays it using
  180.             transparent graphical objects (splats).  Using this
  181.             tool one can interactively view data which has very
  182.             many records.
  183.  
  184.           +o A Statistics Visualizer displays basic statistics of
  185.             the data, including mean, standard deviation,
  186.             quartiles, number of values, and histograms.  The
  187.             Statistics Visualizer is built into the Tool Manager.
  188.  
  189.           +o A Record Viewer replaces the Text Editor for viewing
  190.             MineSet data files.  This displays the data in tabular
  191.  
  192.  
  193.  
  194.  
  195.  
  196.  
  197.  
  198.  
  199.  
  200.  
  201.  
  202.                                   - 4 -
  203.  
  204.  
  205.  
  206.             form.
  207.  
  208.           +o MineSet data files now default to a more compact,
  209.             faster-to-read binary format.  The ASCII format is
  210.             still supported and may be specified via the Tool
  211.             Manager _P_r_e_f_e_r_e_n_c_e_s panel.
  212.  
  213.           +o The visual tools can save and print images of
  214.             themselves.  (However, in Release 2.0/2.0.1, due to a
  215.             limitation in the implementation, this functionality is
  216.             only available when displaying on a Silicon Graphics
  217.             workstation.  See the _K_n_o_w_n _P_r_o_b_l_e_m_s _a_n_d _W_o_r_k_a_r_o_u_n_d_s
  218.             section for more details.)
  219.  
  220.           +o The visual tools' Animation Panel has three new buttons
  221.             below the VCR-line buttons which control the play mode:
  222.             Play-Once, Loop, and Swing.  In the default Play-Once
  223.             mode, the animation follows the drawn path from
  224.             beginning to end (or end to beginning, for Play
  225.             Reverse) and stops.  In Loop mode, the animation
  226.             follows the drawn path from beginning to end (or end to
  227.             beginning), then seamlessly and indefinitely repeats.
  228.             In Swing mode, the animation follows the drawn path
  229.             from beginning to end, then backward from the end to
  230.             the beginning, then again from beginning to end, ad
  231.             infinitum.
  232.  
  233.           +o All configuration files now include a version number
  234.             "MineSet 2.0" as the first line.
  235.  
  236.           +o A symbolic link was added so that /_u_s_r/_l_i_b/_m_i_n_e_s_e_t can
  237.             be used in place of /usr/lib/MineSet.
  238.  
  239.           +o Several of the images have been moved from
  240.             _M_i_n_e_S_e_t__c_o_m_m_o_n to _M_i_n_e_S_e_t.
  241.  
  242.           +o The utilities mineset2sas and sas2mineset have been
  243.             added for converting files between MineSet and SAS
  244.             format.
  245.  
  246.           +o Setting the environment variable MINESET_WARN_EXECUTE
  247.             will have the same effect as launching all visual tools
  248.             with the -warnexecute option, and will cause the visual
  249.             tools to issue a warning before executing a user
  250.             specified command.
  251.  
  252.           +o A -quiet option has been added to the visual tools.  If
  253.             this option is specified, the tools will not pop up
  254.             dialogs when they are busy.  This can be turned on
  255.             permanently by adding the line
  256.                 *minesetQuiet:TRUE
  257.  
  258.  
  259.  
  260.  
  261.  
  262.  
  263.  
  264.  
  265.  
  266.  
  267.  
  268.                                   - 5 -
  269.  
  270.  
  271.  
  272.           +o For users familiar with Inventor, it is possible to turn on the
  273.             Inventor menu by setting the X resource
  274.                 *minesetInventorMenu:True
  275.             to your .Xdefaults file.
  276.  
  277.           +o For scatterviz and splatviz, automatic spinning may be enabled using
  278.             the following X resources:
  279.                 Scatterviz*SoXtExaminerViewer.spinAnimation: on
  280.             or
  281.                 Splatviz*SoXtExaminerViewer.spinAnimation: on
  282.  
  283.        4.3.2  _C_h_a_n_g_e_s__a_n_d__A_d_d_i_t_i_o_n_s__t_o__t_h_e__T_r_e_e__V_i_s_u_a_l_i_z_e_r
  284.  
  285.           +o Because Shift Left mouse is now used for multiple
  286.             selection, you must use the Control key to indicate
  287.             that a zoom is not to take place.
  288.  
  289.           +o When a bar is selected, the zooming will take place to
  290.             view the complete base on which the bar rests rather
  291.             than only the individual bar.  Clicking on any bar on a
  292.             give base will zoom to the same location as clicking on
  293.             the base itself.
  294.  
  295.           +o The Filter Panel now contains filtering criteria
  296.             similar to the Search Panel, but it filters out the
  297.             nodes that don't match rather than highlighting those
  298.             that do.
  299.  
  300.           +o In the Main window, clicking Mouse button 3 can bring
  301.             up a menu to select the children of a node.  If you
  302.             click on a node with children, it will give you a list
  303.             of the children of that node.  If you do not click on a
  304.             node, but a node is selected, it will give you a list
  305.             of children of the selected node.  If nothing is
  306.             selected, or if the selected node has no children, no
  307.             menu will be displayed.
  308.  
  309.           +o New external Control buttons have been added to move to
  310.             the sibling to the left or right of the current
  311.             selection, to move to the first or last child of the
  312.             current selection, or to provide a list of children of
  313.             the current selection.  These have also been added to
  314.             the Go menu except for the list of children.
  315.  
  316.           +o The distinction between scale and max has been
  317.             eliminated in the configuration file.  Scale is now the
  318.             recommended option, and can be used wherever max was
  319.             previously required.  For compatibility, max can also
  320.             be used wherever scale can be used.
  321.  
  322.  
  323.  
  324.  
  325.  
  326.  
  327.  
  328.  
  329.  
  330.  
  331.  
  332.  
  333.  
  334.                                   - 6 -
  335.  
  336.  
  337.  
  338.           +o The execute statement can now be specified via the tool
  339.             options in the Tool Manager.
  340.  
  341.           +o The Search Panel now has a _S_e_l_e_c_t button which will
  342.             select everything that matched the previous search.
  343.  
  344.        4.3.3  _C_h_a_n_g_e_s__a_n_d__A_d_d_i_t_i_o_n_s__t_o__t_h_e__S_c_a_t_t_e_r__V_i_s_u_a_l_i_z_e_r
  345.  
  346.           +o The Scatter Visualizer now supports an execute
  347.             statement similar to the Tree and Map Visualizers.
  348.             This can be specified in the Tool Manager or edited
  349.             directly into the configuration file.
  350.  
  351.           +o The Filter Panel has been moved from the Filter menu to
  352.             the View Menu.  _S_e_t _L_a_n_d_s_c_a_p_e _t_o _F_i_l_t_e_r has been
  353.             renamed _S_c_a_l_e _t_o _f_i_l_t_e_r, moved into the Filter Panel,
  354.             and defaults to on.
  355.             to your .Xdefaults file.
  356.  
  357.        4.3.4  _C_h_a_n_g_e_s__a_n_d__A_d_d_i_t_i_o_n_s__t_o__t_h_e__M_a_p__V_i_s_u_a_l_i_z_e_r
  358.  
  359.           +o The execute statement, the "map outlines" geo hierarchy
  360.             file, and the "color normalize" statement can now be
  361.             specified via the tool options in the Tool Manager.
  362.  
  363.           +o The _V_i_e_w menu now supports a Filter Panel.
  364.  
  365.           +o The _S_e_l_e_c_t_i_o_n_s menu supports the customary options seen
  366.             in the other tools (_S_h_o_w _V_a_l_u_e_s, _S_h_o_w _O_r_i_g_i_n_a_l _D_a_t_a,
  367.             _S_e_n_d _T_o _T_o_o_l _M_a_n_a_g_e_r, and _C_o_m_p_l_e_m_e_n_t_a_r_y _D_r_i_l_l _T_h_r_o_u_g_h),
  368.             and in addition supports _S_e_l_e_c_t _A_l_l (all the objects in
  369.             the scene become selected).
  370.  
  371.        4.3.5  _C_h_a_n_g_e_s__a_n_d__A_d_d_i_t_i_o_n_s__t_o__t_h_e__D_a_t_a__M_o_v_e_r
  372.  
  373.           +o The Data Mover no longer uses Oracle-provided library,
  374.             libclnsh.so, to connect to Oracle databases.  Because
  375.             of this, there is no longer a need for a local Oracle
  376.             installation when MineSet is to access a remote Oracle
  377.             database.
  378.  
  379.           +o The Data Mover now reads and writes files in the
  380.             MineSet binary file format in addition to the ASCII
  381.             format.
  382.  
  383.           +o Filtering, i.e., allowing only records satisfying a
  384.             specified condition to pass, is now supported as
  385.             streaming operation.
  386.  
  387.           +o Random sampling of records is now supported as a
  388.             streaming operation.  This comes in two forms, one in
  389.  
  390.  
  391.  
  392.  
  393.  
  394.  
  395.  
  396.  
  397.  
  398.  
  399.  
  400.                                   - 7 -
  401.  
  402.  
  403.  
  404.             which the user specifies a desired resulting sample
  405.             size, and one in which the user specifies an
  406.             approximate percentage of records to include in the
  407.             sample (accept records with probability p).
  408.  
  409.           +o Data Mover has a now accumulates basic statistical
  410.             information on a data source.  The resulting data is
  411.             used to support the Statistics Visualizer.
  412.  
  413.        4.3.6  _C_h_a_n_g_e_s__a_n_d__A_d_d_i_t_i_o_n_s__t_o__t_h_e__A_n_a_l_y_t_i_c_a_l__M_i_n_i_n_g__T_o_o_l_s
  414.  
  415.  
  416.           +o An Option Tree Inducer and Classifier have been added
  417.             to the set of inducers available under the Mining Tools
  418.             Classify tab.
  419.  
  420.           +o The classifiers and inducers have been extended to work
  421.             with record weights.
  422.  
  423.           +o The classifiers and inducers can now utilize a user
  424.             specified loss matrix that indicates the loss (or cost)
  425.             associated with various types of classification errors.
  426.  
  427.           +o Generating a learning curve has been added as a new
  428.             classifier mode.  A learning curve assesses how the
  429.             classifier's error rate is affected by the number of
  430.             training records.
  431.  
  432.           +o Accuracy estimation has been changed to error
  433.             estimation.  The _E_s_t_i_m_a_t_e _e_r_r_o_r _m_o_d_e now generates a
  434.             model from the whole dataset in addition to estimating
  435.             the error using cross validation.
  436.  
  437.           +o Decision Trees and Option Trees now show the estimated
  438.             error for every node, allowing users to better
  439.             understand where the model is more accurate and where
  440.             it is not.  This estimate is now mapped to color,
  441.             replacing the purity mapping used in MineSet 1.X.
  442.  
  443.           +o The inducers now generate classifiers that are capable
  444.             of estimating probabilities (scoring), not just
  445.             classifying records.  This option is available through
  446.             the apply-classifier transformation.
  447.  
  448.           +o Lift curves, showing the effectiveness of the
  449.             probability estimates, can be generated from _F_u_r_t_h_e_r
  450.             _i_n_d_u_c_e_r _o_p_t_i_o_n_s and under _A_p_p_l_y _C_l_a_s_s_i_f_i_e_r'_s _t_e_s_t
  451.             _c_l_a_s_s_i_f_i_e_r.  Lift curves show how effectively a
  452.             classifier can distinguish a specified label value from
  453.             all other label values.
  454.  
  455.  
  456.  
  457.  
  458.  
  459.  
  460.  
  461.  
  462.  
  463.  
  464.  
  465.  
  466.                                   - 8 -
  467.  
  468.  
  469.  
  470.           +o Confusion matrices, showing the specific types of
  471.             errors that the classifier makes, can be generated from
  472.             _F_u_r_t_h_e_r _i_n_d_u_c_e_r _o_p_t_i_o_n_s and under _A_p_p_l_y _C_l_a_s_s_i_f_i_e_r'_s
  473.             _t_e_s_t _c_l_a_s_s_i_f_i_e_r.
  474.  
  475.           +o It is now possible to backfit the test data into the
  476.             classifier after estimating the classifier's accuracy.
  477.             This mode is on by default and can be modified in
  478.             _F_u_r_t_h_e_r _i_n_d_u_c_e_r _o_p_t_i_o_n_s.  It allows users to see the
  479.             actual record counts/weights, rather than those that
  480.             only appeared in the training set.  Fitting the test
  481.             data into a classifier updates the probability
  482.             estimates without altering the structure of the
  483.             classifier.  Backfitting can reduce the error rate.
  484.  
  485.           +o The apply classifier options have been extended to
  486.             allow testing a classifier against a test set and
  487.             fitting new data to previously created classifiers.
  488.             Fitting new data can be useful if large amounts of data
  489.             are available: a model can be built using a sample and
  490.             the bigger dataset can be used to update the model
  491.             counts and probability estimates.
  492.  
  493.           +o The Laplace correction for the Evidence Inducer now
  494.             supports an automatic correction that has been
  495.             empirically determined to be more accurate in many
  496.             real-world datasets.
  497.  
  498.           +o The _A_u_t_o_m_a_t_i_c _c_o_l_u_m_n _s_e_l_e_c_t_i_o_n in the Evidence Inducer
  499.             now supports a faster "forward" mode.
  500.  
  501.           +o Uniform Weight has been added to the set of automatic
  502.             binning approaches.  Under uniform weight binning
  503.             thresholds are identified that partition the records
  504.             into subsets of equal weight.
  505.  
  506.           +o It is now possible to trim a specified percent of the
  507.             most extreme values prior to generating uniform range
  508.             or uniform weight bins.
  509.  
  510.           +o The binning panel now supports using the training set
  511.             only, weighted records, and automatic determination of
  512.             weight per bin.
  513.  
  514.           +o Automatic binning time (entropy-based) has been reduced
  515.             by a factor of about 15-20.  This dramatically reduces
  516.             the running time for the Evidence Inducer or when the
  517.             automatic binning is used in the binning panel.
  518.  
  519.           +o Reading time (initial loading of data passed by
  520.             datamove) has been reduced by about 20-25%.
  521.  
  522.  
  523.  
  524.  
  525.  
  526.  
  527.  
  528.  
  529.  
  530.  
  531.  
  532.                                   - 9 -
  533.  
  534.  
  535.  
  536.           +o Classification models now require only the actual
  537.             attributes that are used in order to apply them to new
  538.             data.  Specifically, if a decision tree uses only three
  539.             attributes, only those will be required to apply it.
  540.  
  541.  
  542.  
  543.  
  544.  
  545.  
  546.  
  547.  
  548.  
  549.  
  550.  
  551.  
  552.  
  553.  
  554.  
  555.  
  556.  
  557.  
  558.  
  559.  
  560.  
  561.  
  562.  
  563.  
  564.  
  565.  
  566.  
  567.  
  568.  
  569.  
  570.  
  571.  
  572.  
  573.  
  574.  
  575.  
  576.  
  577.  
  578.  
  579.  
  580.  
  581.  
  582.  
  583.  
  584.  
  585.  
  586.  
  587.  
  588.  
  589.  
  590.  
  591.  
  592.  
  593.  
  594.  
  595.